[2023年12月20日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
Recap of 2023's Transformative Data Landscape
Swami Achari氏により、2023年のData Stack周りについて振り返りを行う記事が出ていました。
Modern Data Stackの現状、Data Developer Platforms(DDP)、DatabricksとSnowflakeの関係性、Data Productへの注目、Data Contracts、GenAIの台頭、注目された資金調達、について述べられています。
The Data Quality Resolution Process
「The Data Quality Resolution Process」というタイトルで、データの品質問題が発生したときにどのように解決していくのか、プロセスをまとめた記事がでていました。
一つ一つのプロセスや、関係者への連絡の際に記述する情報まで、とても具体的に記載されています。
Our First Netflix Data Engineering Summit
2023年の夏にNetflix社内でデータエンジニアリングのフォーラムが開催されたようで、データ処理パターンや各種ベストプラクティスについての共有がありました。
このフォーラムの内容が改めてYouTubeで公開されています。正直、Netflix社だから出来ている面も多くありそうな内容が多いのですが、Iceberg、Kafka、FlinkなどのOSSをベースに構築されたNetflix社のデータエンジニアリングについて知りたい場合には参考になると思います。
This year in data: 2023 Wrapped
Secoda社、Brooklyn Data社、Census社の方が2023年の振り返りと2024年の未来予想を行い、その内容をまとめたブログが出ていました。
How Snowflake, phData, and Immuta Approach Data Mesh Challenges
Snowflake社、phData社、Immuta社の3社の方が、どのようにData Meshの実装に向けてアプローチするべきか議論を行い、その内容をまとめた記事をImmuta社が出していました。
Data Warehouse/Data Lakehouse
Snowflake
Snowflake社がデータクリーンルームを提供するSamoohaの買収を発表
Snowflake社がデータクリーンルームを提供するSamoohaの買収を発表しました。
Samoohaは、元々Snowflake Native App Frameworkを活用したデータクリーンルームのアプリケーションを構築していた実績もある企業です。今後の展開に期待ですね!
ローカルでSnowpark DataFramesを作成して操作できるように ※パブリックプレビュー
これまでSnowpark DataFrameはSnowflakeに接続してデータを取得してDataFrameとする方法しかありませんでしたが、新しくローカルでモックデータなどを用いてSnowpark DataFrameを構築できるようになりました。
主にテストやDevOpsパイプラインの構築の際に役立つ機能だと思います。公式DocやYouTubeも公開されているので、参考になるはずです。
SnowsightでのDynamic Tableに関する確認・操作方法
Dynamic Tableに関して、SnowsightのUI上でも多くの情報を確認したり手動更新などができますが、実際の画像と併せてSnowsight上でどのようなことが確認・操作できるかをまとめた記事が出ていました。
Snowflakeで使用できる9種類のテーブルについての解説記事
Snowflakeでは一概にテーブルと言っても、9種類のテーブルがあります。
この9種類のテーブルについて、概要・利点・使用例をまとめた記事が出ていました。
Snowflakeのウェアハウスを最適化するためのクエリ集
phData社より、Snowflakeのウェアハウスを最適化するためのクエリ集が出ていました。
下記の記事に記載のクエリを実行することで、利用状況に基づいた最適化可能なウェアハウスの一覧を出すことが出来ます。
Business Intelligence
Looker
Delphiが、Lookerに対してチャットベースでグラフを生成したり、ダッシュボードの条件を変更できる機能を発表
Looker自体の新機能ではないのですが、DelphiのチャットにLookerを埋め込み、チャットベースでグラフを生成したり、ダッシュボードの条件を変更できる機能を発表しました
Data Catalog
CastorDoc
対話型のAI機能「Conversational AI Assistant」を発表
CastorDocの新機能として、対話型のAI機能「Conversational AI Assistant」を発表しました。
下記のブログから分かる範囲では、対話を行うことでクエリの生成が行えるようです。ちょっと実態がまだ見えていないので触ってみたい機能ですね!
Data Activation (Reverse ETL)
Hightouch
Hightouch社の2023年の振り返り記事
Hightouch社が2023年を振り返る記事が出ていました。
G2で1位の評価を続けて得ていることと、2022年は2兆行分のクエリを処理していたところ2023年は17兆行分のクエリを処理し、2023年は2850億件の顧客レコードを宛先となるツールに連携した、というあたりがポイントだと思います。
Metaplaneとの統合機能
Data Observabilityの製品であるMetaplaneとHightouchが連携する機能を発表しました。
これにより、例えばFivetran→DWH→HightouchのSyncの状況をリネージで確認しつつ、データパイプラインに異常を検知したときにどのHightouchのSyncに影響があるのかを確認できるようになります。
Census
「One-Click Audiences」機能を発表
Censusの新機能として、「One-Click Audiences」という機能が発表されました。
事前にAudience Hubという、Censusのセグメント分類機能を用いてターゲティング対象の顧客を絞り込んでおくことで、そのセグメントをワンクリックでGoogle広告やFacebook広告などに送信出来る、という機能のようです。
Data Orchestration
Dagster
Dagster Cloudで運用するdbt : オーケストレーションツールの技術選定、および4ヶ月運用してわかったメリットとデメリット
@contradiction29さんにより、dbt含む基盤のオーケストレーションとしてDagster Cloudを導入し、4ヶ月運用しての知見をまとめられた記事が出ていました。